exploration and exploitation

[[为什么要探索与利用]]

[[探索与利用问题的难点]]

排序模型和策略综合起来其实就组成了一套极其复杂的探索与利用问题的解决方案。#card

  • 排序模型(召回、粗排、精排)比较偏利用,正样本在模型训练中会迅速建立优势。

  • 在如何利用好当前信息上,可能什么策略都没有这几个模型专业,但放任所有结果都由模型决定会掩盖探索的部分,因此要加入人为干预。正如本书在总览篇的现代推荐链路中说过的,实际系统中有很多策略控制环节,它们保证了新视频一定会被推出,保证了推出的物料有丰富的多样性,以及相似的物料不相邻(正好是第11章的主题)​。

  • 这些策略其实保护了探索,它和模型共同组成了现有的探索与利用的解决方案。

探索的方法研究如何尽快缩小需要探索的范围,或研究如何尽快把“明日之星”定下来,本质是 :-> 巧妙“贪心”​。
上下文老虎机方法

  • [[LinUCB]]

  • [[Thompson sampling]] 核心是 :-> 假设对象服从一种分布

应用场景

  • 第一个场景是对于新用户,尝试为他们快速寻找兴趣标签。#card

    • 此时,推荐可能更有目的性:先试探出用户喜欢什么,然后再从该品类里面大量推出,抓住用户的兴趣(当然此时会准备一个精品池,无论哪个品类都是挑选精品内容来展示)​。

    • 穷尽平台上所有的类别,每一个类别当作一个臂,就可以使用上面的探索与利用算法了。

    • 一开始美妆、篮球、游戏、旅游不做区分全都有概率被推出,随着用户的后验表现积累,逐渐收敛到其中某几个类别上。

    • 要注意的一个点是在这个阶段排序模型往往是不太准的,所以我们一般不会完全信。

    • 到后期,当每个类别行为都很丰富时,排序模型才能最大程度地发挥它们的优势。

  • 爆款的提前挖掘也是个例子。比如平台想推出某项活动,就叫“回忆童年”吧,激励生产者创作相关文章。#card

    • 新物料上来以后,从运营视角很希望尽快知道哪篇文章未来会成为爆款,这样就可以给它开绿色通道让它的曝光及早提高。

    • 这时就是一个探索与利用问题了,每一篇文章都是一个臂。

    • 随着探索越收越窄,提前下场选出几个最好的出来内部给它们买量。

  • YaHoo!的推荐算法工程师们在搜索广告冷启动的问题上提出了新的探索形式:​“[[@A Practical Exploration System for Search Advertising]]”[插图]。

Ref

作者

Ryen Xiang

发布于

2025-06-07

更新于

2025-06-29

许可协议


网络回响

评论